ИИ023
Введение в программирование на Triton
Умножение матриц и слияние операторов для моделей большого размера (LLM)
Цели обучения
- Проанализировать арифметическую интенсивность и предельные возможности (roofline) GEMM в трансформерах
- Определить операции, ограниченные памятью, по сравнению с операциями, ограниченными вычислениями, внутри блоков трансформеров
- Оценить стратегии слияния операторов для снижения накладных расходов при доступе к глобальной памяти
- Изучить шаблоны реализации для объединения слоёв активации, нормализации и внимания